Ramp merging is a typical application of cooperative intelligent transportation system (C-ITS). Vehicle trajectories perceived by roadside sensors are importation complement to the limited visual field of on-board perception. Vehicle tracking and trajectory denoising algorithm is proposed in this paper to take full advantage of roadside cameras for vehicle trajectory and speed profile estimation. Dynamic speed guidance algorithm is proposed to help on-ramp vehicles to merge into mainline smoothly, even in non-cooperative environment where mainline vehicles are not expected to slow down to accommodate on-ramp vehicles. On-site experiments were taken out in a merging area of Hangzhou Belt Highway to testify our prototype system, and simulation analysis shows our proposed algorithm can achieve significant fuel savings during the ramp merging process.
translated by 谷歌翻译
Semantic segmentation based on sparse annotation has advanced in recent years. It labels only part of each object in the image, leaving the remainder unlabeled. Most of the existing approaches are time-consuming and often necessitate a multi-stage training strategy. In this work, we propose a simple yet effective sparse annotated semantic segmentation framework based on segformer, dubbed SASFormer, that achieves remarkable performance. Specifically, the framework first generates hierarchical patch attention maps, which are then multiplied by the network predictions to produce correlated regions separated by valid labels. Besides, we also introduce the affinity loss to ensure consistency between the features of correlation results and network predictions. Extensive experiments showcase that our proposed approach is superior to existing methods and achieves cutting-edge performance. The source code is available at \url{https://github.com/su-hui-zz/SASFormer}.
translated by 谷歌翻译
The image captioning task is typically realized by an auto-regressive method that decodes the text tokens one by one. We present a diffusion-based captioning model, dubbed the name DDCap, to allow more decoding flexibility. Unlike image generation, where the output is continuous and redundant with a fixed length, texts in image captions are categorical and short with varied lengths. Therefore, naively applying the discrete diffusion model to text decoding does not work well, as shown in our experiments. To address the performance gap, we propose several key techniques including best-first inference, concentrated attention mask, text length prediction, and image-free training. On COCO without additional caption pre-training, it achieves a CIDEr score of 117.8, which is +5.0 higher than the auto-regressive baseline with the same architecture in the controlled setting. It also performs +26.8 higher CIDEr score than the auto-regressive baseline (230.3 v.s.203.5) on a caption infilling task. With 4M vision-language pre-training images and the base-sized model, we reach a CIDEr score of 125.1 on COCO, which is competitive to the best well-developed auto-regressive frameworks. The code is available at https://github.com/buxiangzhiren/DDCap.
translated by 谷歌翻译
本文介绍了Kings Arena的荣誉,Kings Arena是基于国王荣誉的强化学习(RL)环境,这是世界上最受欢迎的游戏之一。与以前大多数工作中研究的其他环境相比,我们的人对竞争性强化学习提出了新的概括挑战。与对手竞争的一个代理商是一个多代理的问题;它需要概括能力,因为它具有控制和不同的对手竞争的不同目标。我们描述了国王域名荣誉的观察,动作和奖励规范,并提供了一个基于python的开源界面,以与游戏引擎进行通信。我们为纪念国王竞技场的二十个目标英雄提供了各种任务,并为具有可行的计算资源的基于RL的方法提供了初始基线结果。最后,我们展示了国王竞技场的荣誉和对挑战的可能补救措施所面临的概括挑战。所有软件(包括环境级)均可在https://github.com/tencent-ailab/hok_env上公开获得。该文档可在https://aiarena.tencent.com/hok/doc/上获得。
translated by 谷歌翻译
车道检测是自动驾驶中的基本模块之一。在本文中,我们采用了一种仅变压器的方法来进行车道检测,因此,它可以受益于完全视觉变压器的开发,并通过精细的 - 通过精细 - 通过精细 - 通过精细的 - 调整重量在大型数据集上进行全面训练。更重要的是,本文提出了一个名为Priorlane的新颖和一般框架,该框架用于通过引入低成本的局部先验知识来增强完全视觉变压器的分割性能。 PriorLane利用仅编码变压器来融合由预训练的分割模型与先验知识嵌入的功能融合。请注意,知识嵌入对齐(KEA)模块可通过对齐知识嵌入来提高融合性能。我们ZJLAB数据集的广泛实验表明,Prior-Lane以2.82%MIOU优于SOTA LANE检测方法,并且该代码将在以下位置发布:https:// github。 com/vincentqqb/priorlane。
translated by 谷歌翻译
运输电气化需要越来越多的电动机(例如电动机和电动机存储系统)上的电动机,并且对电动电气的控制通常涉及多个输入和多个输出(MIMO)。本文重点介绍了基于多代理增强学习(MARL)算法的多模式混合动力汽车的能源管理策略的在线优化,该算法旨在解决MIMO控制优化,而大多数现有方法仅处理单个输出控制。基于对基于深层确定性策略梯度(DDPG)基于的MARL算法优化的多模式混合动力汽车(HEV)的能源效率的分析,提出了一种新的与多代理的合作网络物理学习。然后,通过一种新颖的随机方法来设定学习驾驶周期,以加快训练过程。最终,网络设计,学习率和政策噪声被纳入了敏感性分析中,并确定了基于DDPG的算法参数,并研究了与多代理的不同关系的学习绩效,并证明与与不完全独立的关系比率0.2是最好的。与单一代理和多代理的同情研究表明,多代理可以在单一代理方案中获得总能量的4%提高。因此,MAL的多目标控制可以实现良好的优化效果和应用效率。
translated by 谷歌翻译
为了在许多因素动态影响输出轨迹的复杂随机系统上学习,希望有效利用从以前迭代中收集的历史样本中的信息来加速策略优化。经典的经验重播使代理商可以通过重复使用历史观察来记住。但是,处理所有观察结果的统一重复使用策略均忽略了不同样本的相对重要性。为了克服这一限制,我们提出了一个基于一般差异的经验重播(VRER)框架,该框架可以选择性地重复使用最相关的样本以改善策略梯度估计。这种选择性机制可以自适应地对过去的样品增加重量,这些样本更可能由当前目标分布产生。我们的理论和实证研究表明,提议的VRER可以加速学习最佳政策,并增强最先进的政策优化方法的性能。
translated by 谷歌翻译
实体对齐是知识图融合中的至关重要任务。但是,大多数实体对准方法都有可伸缩性问题。最近的方法通过将大型公斤分成小块来解决这个问题,以嵌入和对齐学习。但是,这种分区和学习过程导致结构和对齐过度损失过多。因此,在这项工作中,我们提出了一种可扩展的基于GNN的实体对准方法,以从三个角度降低结构和对齐损失。首先,我们提出一种基于中心性的子图生成算法,以回顾一些具有不同子图之间桥梁的地标实体。其次,我们介绍了自我监督的实体重建,以从不完整的邻里子图中恢复实体表示形式,并设计了跨纸笔负面抽样,以在对齐学习中纳入其他子图中的实体。第三,在推理过程中,我们合并子图的嵌入,以制作一个单个空间进行对齐搜索。基准开放数据集和提议的大型DBPEDIA1M数据集的实验结果验证了我们方法的有效性。
translated by 谷歌翻译
建模城市环境中的网络级交通流量如何变化对于运输,公共安全和城市规划中的决策有用。交通流量系统可以视为一个动态过程,随着时间的推移,状态之间(例如,每个道路段的交通量)之间过渡。在现实世界中的流量系统中,诸如交通信号控制或可逆车道更改之类的交通操作动作,该系统的状态受历史状态和交通操作的行动的影响。在本文中,我们考虑了在现实世界中建模网络级交通流量的问题,在现实世界中,可用数据稀疏(即仅观察到交通系统的一部分)。我们提出了Dtignn,该方法可以预测稀疏数据的网络级流量流。 Dtignn将交通系统建模为受交通信号影响的动态图,学习以运输的基本过渡方程为基础的过渡模型,并预测未来的交通状态在此过程中归类。通过全面的实验,我们证明了我们的方法优于最先进的方法,并且可以更好地支持运输中的决策。
translated by 谷歌翻译
基于变压器的方法最近在基于2D图像的视力任务上取得了巨大进步。但是,对于基于3D视频的任务,例如动作识别,直接将时空变压器应用于视频数据将带来沉重的计算和记忆负担,因为斑块的数量大大增加以及自我注意计算的二次复杂性。如何对视频数据的3D自我注意力进行有效地建模,这对于变压器来说是一个巨大的挑战。在本文中,我们提出了一种时间贴片移动(TPS)方法,用于在变压器中有效的3D自发明建模,以进行基于视频的动作识别。 TPS在时间尺寸中以特定的镶嵌图模式移动斑块的一部分,从而将香草的空间自我发项操作转换为时空的一部分,几乎没有额外的成本。结果,我们可以使用几乎相同的计算和记忆成本来计算3D自我注意力。 TPS是一个插件模块,可以插入现有的2D变压器模型中,以增强时空特征学习。提出的方法可以通过最先进的V1和V1,潜水-48和Kinetics400实现竞争性能,同时在计算和内存成本方面效率更高。 TPS的源代码可在https://github.com/martinxm/tps上找到。
translated by 谷歌翻译